🎯 Raport Analizy Danych - Projekt Zespołowy 2024-2025 ⭐ 1. Wprowadzenie
Analiza danych odgrywa fundamentalną rolę w realizacji projektów opartych na danych.
Niniejszy raport koncentruje się na obróbce historycznych danych dotyczących wniosków kredytowych. Proces ten obejmuje ich: - oczyszczanie, - analizę, - wizualizację.
Dzięki odpowiedniemu przetwarzaniu danych możliwe jest nie tylko eliminowanie nieścisłości, ale również ich przekształcenie, co pozwala na: - formułowanie wartościowych wniosków, - podejmowanie bardziej świadomych decyzji strategicznych.
Celem projektu jest: 1. Przedstawienie kompleksowego podejścia do analizy danych. 2. Zaprezentowanie etapów od przygotowania danych aż po ich interpretację.
Szczególny nacisk położono na: - identyfikację braków, - weryfikację spójności, - transformację kluczowych informacji.
Te etapy stanowią fundament dla zaawansowanych metod analitycznych, takich jak: - wnioskowanie statystyczne, - odkrywanie ukrytych wzorców w danych.
Ten dokument zawiera podsumowanie procesu analizy i oczyszczania
danych w projekcie zespołowym. Plik wejściowy:
previous_application_new.csv
⭐ 2. Data Cleansing. Wrangling
Proces przetwarzania i czyszczenia danych był kluczowym krokiem w przygotowaniu informacji do dalszej analizy.
Dzięki tym operacjom uzyskano zestaw danych: - kompletny, - zgodny ze standardami analitycznymi, - gotowy do dalszego przetwarzania.
Weryfikacja danych: - Walidacja pozwoliła zidentyfikować i wyeliminować potencjalne rozbieżności. - Potwierdzono integralność i spójność przekształconych danych.
Oczyszczone dane stanowią solidną podstawę dla kolejnych etapów projektu, takich jak: - wizualizacja danych, - analiza opisowa, - testy statystyczne.
Finalny plik z przetworzonymi danymi został zapisany pod ścieżką:
C:/Users/user/Documents/GIT projekts/Analiza_danych-Projekt_Zespolowy2024-2025/previous_application_cleaned_finished.csv
⭐ 3. Wizualizacja Danych
W tej sekcji przedstawiono kluczowe wizualizacje danych przygotowanych na podstawie wcześniejszej analizy. Każdy wykres został zapisany i opisany poniżej.
- Większość wniosków
dotyczy niewielkich kwot poniżej 500 000. - Rozkład jest prawostronnie
skośny.
- Zdecydowana większość
wniosków dotyczy niskich kwot kredytu (poniżej 500 000). - Pojawiają się
nieliczne przypadki wysokich kwot kredytu (powyżej 2 000 000).
- Największa liczba
wniosków dotyczy wkładu własnego w przedziale 40 000–50 000. - Rozkład
jest symetryczny z niewielką liczbą wartości skrajnych.
- Dominują towary o cenie
poniżej 500 000. - Rozkład wskazuje na prawostronną skośność.
- Większość wniosków dotyczy
rat rocznych poniżej 50 000. - Nieliczne przypadki wskazują na wysokie
raty powyżej 150 000.
- Kredyty
gotówkowe najczęściej mieszczą się w przedziale 100 000–150 000. - Inne
typy kredytów skupiają się w niższych przedziałach kwotowych.
- Towary o
niskich cenach (poniżej 500 000) dominują niezależnie od kategorii
portfela.
-
Widoczna jest liniowa zależność między wnioskowaną kwotą a przyznanym
kredytem.
- Wysoki
wkład własny częściej występuje przy niższym procencie kredytu.
- Dominują kredyty
przeznaczone na remonty, inwestycje i bieżące wydatki.
- Proporcje stanów
umowy różnią się w zależności od rodzaju klienta.
- Najwięcej
wniosków jest składanych w godzinach popołudniowych.
- Liczba wniosków zmienia
się w zależności od dnia, wskazując na różnorodne trendy.
-
Kredyty na budowę domu lub zakup nieruchomości charakteryzują się
najwyższymi kwotami.
- Liczba rat
różni się w zależności od kategorii produktu. Najwięcej rat przypada na
produkty hipoteczne.
Każda wizualizacja została zapisana w formacie .png i
może być wykorzystywana do dalszej analizy i prezentacji wyników.
⭐ 4. Analiza Opisowa
W tej sekcji przedstawiono analizę danych w oparciu o różne zmienne opisowe i ilościowe.
Poniżej przedstawiono boxplot dla wnioskowanej kwoty z wykorzystaniem skali logarytmicznej.
- Wykres przedstawia rozkład
wnioskowanej kwoty w skali logarytmicznej. - Widoczna jest obecność
wartości odstających w górnym zakresie kwot.
Wykres przedstawia macierz korelacji pomiędzy zmiennymi numerycznymi w zbiorze danych.
-
Wykres pokazuje relacje między zmiennymi numerycznymi w danych. - Silne
korelacje mogą sugerować redundancję zmiennych lub istotne relacje.
⭐ 5. Wnioskowanie (testy statystyczne) - Omówione zostaną wyniki testów statystycznych wspierających wnioskowanie.
⭐ 6. Podsumowanie i wnioski końcowe - Podsumowanie głównych wyników i proponowane wnioski końcowe.